Cohen’s D – T检验的效应量
By Ruben Geert van den Berg under T-Tests , Basics & Statistics A-Z
Cohen’s D 是两个均值之间的差异,以标准差为单位表示。
- Cohen’s D - 公式 (Formulas)
- Cohen’s D 和 统计功效 (Power)
- Cohen’s D 和 点二列相关 (Point-Biserial Correlation)
- Cohen’s D - 解释 (Interpretation)
- SPSS 用户如何使用 Cohen’s D
为什么我们需要 Cohen’s D?
已婚和离异家庭的孩子完成了一些心理测试:焦虑、抑郁等。为了比较这两组孩子,他们的平均分数使用 独立样本t检验 进行了比较。结果如下所示。
一些基本的结论是:
- 所有均值差异都是负的。因此,第二组——来自离异家庭的孩子——在所有测试中的均值都较高。
- 除了焦虑测试外,所有差异都具有 统计显著性。
- 均值差异的范围从 -1.3 分到 -9.3 分。
然而,我们真正想知道的是这些差异是小、中还是大的差异?这很难回答,原因有两个:
- 心理测试分数没有任何固定的测量单位(unit of measurement),如米、美元或秒。
- 统计显著性并不意味着实际显著性(反之亦然)。这是因为 p 值强烈依赖于样本大小(sample sizes)。
解决这两个问题的方法是使用标准差作为测量单位,就像我们计算 z 分数时一样。而以标准差表示的均值差异——Cohen’s D——是 t 检验的可解释的 效应量(effect size)测量指标。
Cohen’s D - 公式 (Formulas)
Cohen’s D 的计算公式为:
\[D = \frac{M_1 - M_2}{S_p}\]
其中:
- \(M_1\) 和 \(M_2\) 表示第 1 组和第 2 组的样本均值;
- \(S_p\) 表示合并估计的总体标准差 (pooled estimated population standard deviation)。
但“合并估计的总体标准差”到底是什么?好吧,独立样本 t 检验假设我们比较的两组具有相同的总体标准差。我们通过“合并”我们的两个样本标准差来估计它:
\[S_p = \sqrt{\frac{(N_1 - 1) \cdot S_1^2 + (N_2 - 1) \cdot S_2^2}{N_1 + N_2 - 2}}\]
幸运的是,我们很少需要这个公式:SPSS、JASP 和 Excel 都可以轻松地为我们计算带有 Cohen’s D 的 t 检验。
JASP 中的 Cohen’s D
在 JASP 中运行完全相同的 t 检验并请求带有 置信区间(confidence intervals)的“效应量”(effect size),会得到如下所示的输出。
请注意,Cohen’s D 的范围从 -0.43 到 -2.13。一些最小的指导原则是:
- d = 0.20 表示 小 效应 (small effect);
- d = 0.50 表示 中等 效应 (medium effect);
- d = 0.80 表示 大 效应 (large effect)。
有了这些,我们可以大致认为:
- 焦虑(d = -0.43)和抑郁测试(d = -0.48)的效应是中等的;
- 强迫行为测试(d = -0.71)的效应是相当大的;
- 反社会行为测试(d = -2.13)的效应是绝对巨大的。
我们将在后面更详细地讨论 Cohen’s D 的解释。让我们首先看看 Cohen’s D 如何与统计功效和点二列相关(t 检验的另一种效应量测量指标)相关联。
Cohen’s D 和 统计功效 (Power)
非常有趣的是,t 检验的 统计功效(power)可以直接从 Cohen’s D 计算出来。这需要指定两个样本大小和 α,通常为 0.05。下图——使用 G*Power 创建——显示了统计功效如何随着总样本大小的增加而增加。它假设两个样本同样大。
如果我们以 α = 0.05 进行检验,并且我们想要统计功效 (1 - β) = 0.8,那么:
- 如果我们预期 d = 0.8(大效应),则使用 2 个 n = 26 的样本(总 N = 52);
- 如果我们预期 d = 0.5(中等效应),则使用 2 个 n = 64 的样本(总 N = 128);
- 如果我们预期 d = 0.2(小效应),则使用 2 个 n = 394 的样本(总 N = 788);
Cohen’s D 和重叠分布
独立样本 t 检验的假设是:
- 独立的观察结果;
- 正态性(normality):结果变量必须在每个子总体中 正态分布;
- 同质性(homogeneity):两个子总体必须具有相等的总体标准差,因此也具有方差。
如果完全满足假设 2 和 3,那么 Cohen’s D 意味着频率分布的哪个百分比重叠。下面的例子显示了当 Cohen’s D = 0.8(大效应)时,一些男性总体如何与一些女性总体的约 69% 重叠。
当 Cohen’s D 减少 时,重叠的百分比增加。在这种情况下,分布的中点彼此靠近。一些基本基准包含在我们将在一分钟内介绍的解释表中。
Cohen’s D 和点二列相关 (Point-Biserial Correlation)
独立样本 t 检验的另一种效应量测量指标是 \(R_{pb}\),即点二列相关。这只是一个定量变量和一个 二分变量 之间的 皮尔逊相关(Pearson correlation)。它可以从 Cohen’s D 计算得出:
\[R_{pb} = \frac{D}{\sqrt{D^2 + 4}}\]
对于我们的 3 个基准值:
- Cohen’s d = 0.2 意味着 \(R_{pb}\) ± 0.100;
- Cohen’s d = 0.5 意味着 \(R_{pb}\) ± 0.243;
- Cohen’s d = 0.8 意味着 \(R_{pb}\) ± 0.371。
或者,使用 t 值及其自由度计算 \(R_{pb}\):
\[R_{pb} = \sqrt{\frac{t^2}{t^2 + df}}\]
Cohen’s D - 解释 (Interpretation)
下表总结了我们在前几段中讨论的关于 Cohen’s D 的经验法则。
Cohen’s D | 解释 | Rpb | % 重叠 | 建议 N |
---|---|---|---|---|
d = 0.2 | 小效应 | ± 0.100 | ± 92% | 788 |
d = 0.5 | 中等效应 | ± 0.243 | ± 80% | 128 |
d = 0.8 | 大效应 | ± 0.371 | ± 69% | 52 |
SPSS 用户如何使用 Cohen’s D
Cohen’s D 在 SPSS 27 及更高版本中可用。它可以从 A nalyze C ompare Means
Independen t Samples T Test 获取,如下所示。
有关输出的更多详细信息,请参阅 SPSS 独立样本 T 检验。
如果您使用的是 SPSS 26 或更低版本,您可以使用 Cohens-d.xlsx。这个 Excel 表重新计算一个或多个 t 检验的所有输出,包括 Cohen’s D 及其置信区间:
- 两个样本大小,
- 两个样本均值,以及
- 两个样本标准差。
divorced.sav 中的示例数据及其生成的部分输出如下所示。
请注意,Excel 工具不需要原始数据:一些描述性统计数据(可能来自印刷的文章)就足够了。
如果 SPSS 命令至少包含 2 个变量,SPSS 用户可以轻松地从简单的 MEANS 命令创建所需的输入。一个例子是:
***Create table with N, mean and SD for test scores by divorced for copying
into Excel.
**
means anxi to anti by divorced
/cells count mean stddev.
将 SPSS 输出表复制粘贴为 Excel 会保留结果的(隐藏)小数位。这些可以在 Excel 中显示,并减少舍入误差。
最后的说明
我认为 Cohen’s D 很有用,但我仍然更喜欢 R 2,即自变量和因变量之间的平方(皮尔逊)相关。请注意,这对于二分变量完全有效,并且也作为 虚拟变量回归(dummy variable regression)的基础。
我更喜欢 R 2 的原因是它与其他效应量测量指标一致:独立样本 t 检验是 ANOVA 的一个特例。如果我们运行作为 ANOVA 的 t 检验,η 2(eta squared)= R 2,或者自变量解释的方差比例。这就提出了一个问题:如果我们比较 2 个而不是 3 个以上的子总体,为什么我们应该使用不同的效应量测量指标?我认为我们不应该。
这种推理也反对报告 t 检验的 单尾显著性:如果我们运行作为 ANOVA 的 t 检验,p 值始终是相应 t 检验的双尾显著性。因此,为什么您应该报告不同的测量指标来比较 2 个而不是 3 个以上的均值?